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基于 论文 摘要 和 引文 文本 语 料 的 突破 性 研究 特征 词 识别 


EAE EF 杜 建 。 唐 小 利 
' 中 国医 学 科学 院 医学 信息 研究 所 ”北京 100005 “北京 大 学 健康 医疗 大 数据 国家 研究 院 ”北京 100191 


摘 要 : [目的 /意义 ] 基于 作者 对 自身 研究 的 描述 性 评价 和 后 续 研究 者 的 评论 性 引用 视角 ,利用 摘要 和 引文 语 料 提取 突 
破 性 研究 的 特征 词 , 从 而 了 解 突破 性 研究 的 摘要 和 引文 语 料 特征 以 帮助 对 于 突破 性 研究 的 识别 。 | 方法/ 过程] 
选取 Science 评选 为 “Breakthrough of the Year” 的 关键 文献 和 Nobel Prize 获得 者 的 “key publications” 作 为 突破 性 研 
究 语 料 数 据 , 整 合 论文 的 摘要 和 引文 语 料 进行 特 征 词 提 取 。 特 征 词 提 取 中 ,首先 利用 Stanford CoreNlp 工具 对 语 料 
进行 分 词 及 词 频 统计 ,并 结合 专家 意见 提取 特征 词 元 。 然 后 将 特征 词 作 为 种 子 词 ,利用 医学 文本 的 语义 关系 对 特征 
词 进行 语义 拓展 。 最 后 通过 查 全 率 和 查 准 率 进 一 步 对 比 摘要 和 引文 的 特征 词 拓展 前 后 的 检索 识别 效果 。| 结果 / 结 
论 ] 突破 性 研究 语 料 中 遂 选 出 8 个 摘要 语 料 的 特征 词 元 和 8 个 引文 语 料 的 特征 词 元 。 特 征 词 检 索 识别 中 ,摘要 和 引 
文 的 拓展 特征 词 的 查 全 率 最 高 ,引文 特征 词 的 查 准 率 最 高 ,引文 拓展 特征 词 的 查 全 率 和 查 准 率 综合 效果 较 好 。 


词 : 突破 性 研究 ”特征 词 摘要 文本 ”引用 语句 
号 : G250 


1.002 t4v1 


C5" 创新 驱动 发 展 "已 成 为 我 国 加 快 推动 经 济 发 展 


在 科学 计量 学 领域 ,研究 方法 可 以 分 为 两 类 :一 类 是 基 


认 转 变 的 战略 举措 ,其 中 ,能 够 带 来 产业 技术 架构 与 
ACIES HE S Rit B ACIER A HR OUT Je OUR 
aA MUERE. denkt RETE I SOR RIT DL CE 
法 突破 性 技术 创新 ,如 果 能 够 在 研究 早期 识别 出 突 
破 性 研究 ,就 能 够 促进 突破 性 创新 研究 的 部 署 , 加 快 扒 
动 突 彼 性 技术 创新 的 进程 。 突 破 性 研究 的 早期 识别 对 
于 我 国 科 技 创新 强国 的 建设 具有 重要 意义 。 

〇 本 文 从 特征 词 发 现 的 角度 ,挖掘 突破 性 研究 的 摘 
要 和 引文 语 料 的 语义 特征 ,利用 提取 的 特征 词 帮助 突 
破 性 研究 文献 能 在 大 规模 文献 数据 集中 被 识别 和 发 
现 ,并 为 突破 性 研究 的 精准 检索 限定 候选 突破 性 文献 
集 , 实 现 突破 性 研究 的 早期 识别 ,为 突破 性 研究 的 部 团 
战略 提供 理论 支撑 。 


1 相关 研究 


1.1 突破 性 研究 识别 
目前 对 突破 性 研究 进行 识别 的 相关 人 研究 主要 集中 


于 文献 计量 学 的 特异 性 指标 识别 突破 性 研究 。E. 
Garfield 通过 观察 科学 论文 随时 间 的 影响 ,利用 简单 的 
引文 计数 初步 识别 出 部 分 科学 发 现 "1] 。I. V. Ponomar- 
ev 等 中 基于 出 版 物 引 用 动态 ,结合 定量 方法 ,早期 发 
现 \ 识 别 候 选 突破 性 论文 。Y. H. Huang 等 ”基于 文章 
的 引用 路 径 ( 引 文 链 ) ,发 现 突破 性 研究 的 出 现 会 引发 引 
文 链 的 破裂 ,因此 提出 用 “破裂 分 数 ” 识 别 生物 医学 等 领 
域 的 突破 性 研究 。 除 了 引文 的 相关 指标 ,一 些 研究 还 综 
合 考 虑 了 作者 合作 、 时 间 延 迟 承认 指数 等 指标 。 科 害 唯 
安 与 美国 国家 癌症 研究 所 的 一 项 联合 研究 中 中 ,将 文献 
的 出 版 时 间 、 共 同 作者 网 络 及 其 他 字段 特征 纳入 随机 森 
林 模 型 ,结合 主题 专家 的 遵 选 ,实现 在 论文 发 表 后 能 尺 
早 识别 候选 的 突破 性 论文 。 杜 建 等 提出 使 用 延迟 承 
认 指 数 和 被 专利 引用 两 个 指标 识别 变革 性 研究 。 

还 有 一 类 方法 是 利用 评价 性 语句 的 语言 特征 识别 
突破 性 研究 。 众 多 学 者 因 引 文 语 料 中 包含 大 量 有 价值 
的 信息 ,采用 引用 内 容 分 析 或 施 引 语句 分 析 方 法 来 识别 
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突破 性 研究 。D. R. Radev 等 从 引文 语义 挖掘 的 角度 , 利 
用 施 引 语句 的 描述 总 结 被 引用 论文 的 “贡献 点 "上 o H. 
Small 选择 出 现 线索 词 “discover * "的 施 引 语句 及 其 对 应 
的 参考 文献 ,利用 施 引 语句 的 语义 特征 进行 机 器 学 习 斌 
验 , 自 动 判断 参考 文献 是 否 为 “科学 发 现 "” 。 

以 上 的 研究 均 以 引用 数据 视角 开展 重大 发 现 的 识 
别 , 由 于 作者 在 引用 参考 文献 时 动机 复杂 ,基于 引用 次 
数 和 引用 路 径 的 指标 研究 ,存在 简单 的 引用 计数 和 引用 
关系 并 不 能 提供 足够 的 信息 来 进行 准确 的 识别 的 浆 端 
因此 基于 引用 语句 特征 的 识别 虽然 重点 突出 了 后 续 研 
究 者 对 相关 研究 的 评价 ,但 每 条 引文 并 不 能 全 面 概括 作 
者 的 研究 成 果 , 因 此 ,基于 语句 特征 的 识别 还 应 结合 论 
文 作者 对 自身 研究 的 评价 。 此 外 ,H. Small 利用 线索 词 
限定 候选 突破 性 研究 文献 为 突破 性 研究 识别 提供 了 新 
的 是 路 ,但 是 单一 的 线索 词 难免 会 将 一 些 潜在 的 突破 性 
研究 文献 排除 在 外 。 
N 文本 特征 提取 
文本 特征 提取 是 自然 语言 处 理 的 基本 步 又 之 一 ， 


寺 征 提取 的 主要 思想 是 首先 构建 一 个 评 
数 , 然 后 通过 这 个 函数 计算 特征 词 条 的 权重 ,接着 
车 祝 征 词 的 权重 进行 排序 ,选取 前 n 个 特征 为 最 终 的 
Meier ge. 
.之 目前 文本 特征 提取 方法 主要 分 为 两 类 :基于 统计 
P 去 和 基于 语义 的 方法 ”。 基 于 统计 方法 的 评估 函 
数 是 类 间 不 相关 的 , 即 词 与 词 之 间 默 认 是 没有 联系 的 。 
teg 统计 的 方法 中 ,TF-IDF ( term. frequency-inverse 
doeument frequency) 方法 一 直 是 研究 的 重点 ,并 能 表现 
较 好 的 提取 效果 。TF-IDF 由 G. Salton 等 于 1988 年 首 
次 提出 '” ,其 中 TF 称 为 词 频 , 用 于 计算 该 词 描述 文档 
内 容 的 能 力 ;IDF 称 为 反 文档 频率 ,用 于 计算 该 词 区 分 
文档 的 能 力 。 谷 俊 等 "利用 ICTCLAS ( Institute of 
Computing Technology, Chinese Lexical Analysis System) 
分 词 系 统 抽 取 专 利文 档 的 词 元 ,将 获取 的 词 元 通过 改 
进 的 TF-IDF 模型 进一步 筛选 热点 词 元 ,最 后 由 专家 人 
工 判 定 出 有 效 的 新 技术 术语 。 基 于 统计 的 方法 具有 过 
程 简 单 .结果 直观 的 特点 ,但 忽略 了 文本 中 词义 关系 和 
语义 特征 ,导致 特征 词 提 取 不 够 全 面 。 
基于 语义 方法 的 评估 函数 是 类 间 相 关 的 , 即 建立 
在 语义 理解 的 基础 上 ,通过 对 上 下 文 关 系 的 提取 构建 
语义 网 络 。 目 前 提取 效果 较 好 的 是 T. Mikolov 等 提出 
的 Word2vec 模型 ,该 模型 可 以 根据 上 下 文 关系 以 词 
向 量 的 形式 提取 表达 语义 ,并 在 向 量 空间 内 将 词 的 向 


对 


量 按 相 似 性 进行 分 组 。C. Chen 在 研究 科学 出 版 物 中 
代表 不 确定 性 的 特征 词 时 ,利用 Word2vec 将 文本 进行 
向 量化 处 理 , 进 而 根据 一 系列 的 种 子 词 选 择 不 确定 性 
的 特征 词 ”。 总 的 来 说 ,基于 语义 特征 提取 的 方法 ， 
能 够 有 效 地 提高 文本 信息 特征 提取 的 准确 性 ,但 是 高 
准确 率 仅 体现 在 已 定义 的 类 别 间 ,而 对 于 尚未 定义 的 
域外 类 别 ,类 间 相 关 评 估 函 数 的 选择 效果 也 不 理想 。 
2 ”特征 词 提 取 方 法 

基于 相关 学 者 对 突破 性 研究 识别 及 特征 词 提取 的 
研究 ,本 文 在 后 续 研究 者 对 文献 评价 的 基础 之 上 ,整合 
作者 对 自身 研究 的 评价 ,利用 词 频 统计 和 语义 拓展 的 
方式 对 已 知 突破 性 研究 的 摘要 和 引文 语 料 进行 特征 词 
提取 。 从 “ 自 评 + 他 评 ” 的 视角 ,更 全 面 、 更 准确 地 提 
取 突 破 性 研究 的 特征 词 。 

基于 论文 摘要 和 引文 文本 语 料 的 突破 性 研究 特征 
词 识别 主要 分 为 四 步 : 数 据 来 源 与 预 处 理 \ 基 于 词 频 统 
计 的 特征 词 元 提取 、 基 于 语义 的 特征 词 元 语义 拓展 、 特 
征 词 提取 效果 评估 ,提取 方法 的 框架 见 图 1。 
2.1 数据 来 源 与 预 处 理 

在 已 知 突破 性 研究 文献 的 选择 过 程 中 ,需要 明确 
突破 性 研究 的 定义 ,限定 已 知 突破 性 研究 的 文献 选取 
范围 ,方便 数据 获取 。 目 前 对 突破 性 研究 (Break- 
through Discoveries ) 尚 无 公认 的 定义 ,I V. Ponomarev 
等 在 识别 已 知 突破 性 论文 和 高 被 引 论文 的 典型 引用 模 
式 过 程 中 ,发 现 突破 性 论文 获得 较 多 的 引用 而 且 能 够 
为 当下 的 研究 提供 新 的 方向 。 在 Science 评选 的 年 
度 科 学 突破 (Breakthrough of the Year) 中 ,其 新 闻 副 主 
编 R. Coontz 表示 :科学 突破 应 该 是 起 到 两 种 作用 中 的 
一 种 ,或 者 解决 了 一 个 人 们 长 时 间 苦 思 竖 想 的 问题 ,或 
者 为 许多 新 研究 开启 了 大 门 ”。 本 文 将 突破 性 研究 
界定 为 在 渐进 式 的 研究 中 做 出 的 重大 发 现 ,或 在 原 有 
研究 基础 上 的 颠覆 变革 ,并 为 研究 提供 了 新 方向 。 

Science 评选 的 “年 度 科 学 突破 ”( Breakthrough of 
the Year) 被 广泛 认为 是 科学 领域 的 最 高 成 就 之 1， 
这 些 被 评选 的 科学 突破 符合 本 文 界定 的 突破 性 研究 定 
义 。 此 外 ,同样 作为 科学 领域 最 高 成 就 之 一 的 Nobel 
Prize ,其 获奖 者 均 是 在 物理 化学、 医药 等 领域 具有 重 
大 发 现 的 学 者 。 因 此 本 文选 择 在 生物 医学 领域 ,被 
Science 评选 为 年 度 科 学 突破 (Breakthrough of the Year) 
的 参考 文献 及 Nobel Prize 获得 者 的 “代表 作 ”(Key 
Publications) 作为 突破 性 研究 特征 词 提 取 语 料 。 文 献 
数据 在 Science , Nobel 官网 检索 获取 。 
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一 132. 
第 一 步 : 数据 来 源 与 预 处 理 
Breakthrough of the 
Year 的 
(1996-2018) 
Nobel prize 获得 者 的 
Key publications 
(1981-2018) 
Skip Gram 
训练 模型 
y~ 
T 中 评估 
IEH: F1000 中 被 评议 为 反例 ; F1000 中 被 评议 为 
e New-Finding 的 论文  Negative/Null Result 的 论文 
e ERR AEF 
局 1 突破 性 研究 特征 词 提取 方法 框架 


ON 二 于 作者 对 自身 研究 的 描述 性 评价 和 后 续 研究 者 
的 评论 性 引用 视角 ,分 别 选择 论文 摘要 和 引文 文本 开 
雇 闫 破 性 研究 的 特征 词 识别 。 论 文摘 要 语 料 主要 利用 
论 灾 的 PMID 在 PubMed 数据 库 获取 ;引文 文本 语 料 通 
过 交 章 的 PMID 在 Colil FARR” ,该 平台 是 日 本 国 
家 组 命 科学 数据 库 中 心 基于 PMC-OAS 开发 ,输入 文章 
PMID 能 够 直接 批量 获取 文章 的 引文 文本 信息 1 。 通 
过 PMID 获取 的 论文 摘要 和 引文 文本 语 料 均 为 结构 化 
数据 ,但 是 由 于 原始 语 料 是 通过 网 络 人工 录 入 .软件 
识别 转换 等 方式 加 工 存储 ,文本 常 存在 符号 .格式 不 规 
范 等 问题 ,直接 使 用 会 影响 数据 统计 、 赋 码 等 多 个 环 
节 。 因 此 在 特征 词 提取 前 , 语 料 数据 需要 剔除 无 效 字 
符 .参考 文献 .网 址 等 非 标准 化 字符 。 

2.2 ”基于 词 频 统计 的 特征 词 元 提取 

突破 性 研究 语 料 特征 词 选 取 的 重点 是 选 出 多 篇 文 
献 共 同 提 到 的 特征 词 ,无 需 考 虑 反 文档 频率 ,因此 TF- 
IDF 的 方法 并 不 适用 于 此 处 的 特征 词 元 选取 。 在 筛选 
特征 词 元 过 程 中 ,本 文选 择 传统 的 词 频 统计 方式 ,使 用 
Stanford CoreNlp 工具 对 语 料 进行 分 词 及 词 频 统 计 ” ， 
提高 词 频 统计 的 准确 性 。Stanford CoreNlp 工具 获取 语 
料 词 频 的 步骤 为 分词 - 词 形 还 原 - 基于 句法 的 词性 


标注 - 词 频 统计 ,在 此 基础 上 过 滤 标 点 及 属性 为 CD 
( 纯 数 ,基数 ) 的 词 ,减少 标点 及 数字 带 来 的 噪音 。 图 2 
是 以 “The sulfur atom is supplied by a separate cluster in 


the enzyme. ”为 语 料 示 例 展示 的 词 频 统计 过 程 : 


C 文本 语 料 
分 词 


The sulfur atom is supplied by a separate cluster in the enzyme. 


The sulfur atom is supplied by a separate cluster in the enzyme . 


词 形 还 原 the sulfur atom is supply by a separate cluster in the enzyme . 
aM DTNNNN VBZ VBNINDT JJ NNINDTNN. 
C lemma count pos words. 

à 10T a 

Custer 1NN Custer 

be 1 vaz s 

separate 1» separate 

n 11N n 

by 1N by 

sulfur 1NN sulfur 

atom 1NN atom 
supply PM. nopted 

过 滤 标 点 


及 数字 过 滤 掉 数字 串 及 ,. 等 标点 


2 语 料 词 频 统计 示例 


2.3 基于 语义 的 特征 词 元 语义 拓展 

在 根据 NLP 方法 获得 了 特征 词 后 ,综合 考虑 PMC 
数据 库 中 所 有 医学 文献 的 语义 关系 进行 特征 词 的 语义 
拓展 。Word2vec 主要 采用 CBOW ( Continuous Bag-of- 
Words Model) fil Skip-Gram( Continuous Skip-Gram Mod- 
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el) 模型 , 其 中 Skip-Gram 适用 于 更 大 规模 的 语 料 
4E 7" ,因此 本 文选 择 kip-Gram 模型 。 词 义 拓展 中 , 首 
先 基 于 PMC Open Access( PMC OA) 文章 的 所 有 文本 内 
容 ,Skip-Gram 训练 模型 收集 1-grams 到 5-grams 的 滑动 
窗 Hg 。 进 而 将 获取 的 N-gram 语 料 构建 词 元 向 
量 ,得 到 包含 构建 分 布 相似 性 模型 所 需 的 所 有 显著 信 
息 的 N-gram 库 。 在 此 基础 上 利用 随机 索引 方法 “对 
语料库 中 所 有 上 下 文 窗口 中 的 单词 的 索引 向 量 求 和 ， 
以 获得 给 定单 词 的 向 量 空 间 。 最 后 将 编码 过 给 定单 词 
带 入 神经 网 络 进行 训练 ,通过 计算 给 定单 词 间 的 余弦 
距离 确定 单词 的 矢量 距离 。 单 词 拓 量 距 离 就 是 词义 拓 
展 的 核心 ,矢量 距离 越 近 代表 词义 越 相近 。 
通过 以 上 方法 完成 PMC OA Word2vec 模型 的 构 
列 3 模 型 构建 的 流程 图 见 图 3。 使 用 该 模型 进行 词义 
拓 民 时 ,只 需 某 个 词 输入 到 模型 中 , 即 可 输出 与 这 个 词 
VAERE 
g Skip Gram 
Gos EI IM 
"T 


i 


d 
CN w2 — M a» Ww3 
O x <7, .随机 索引 zx 
f Ñ / / Cosine Distance 向 量 库 
N N // S, 
[ 
P WS 一 一 一， w4 
S< isle RE ER 
它 图 3 PMC OA Word2vec 模型 构建 的 流程 图 


1E 提取 效果 评价 方法 
二 在 信息 检索 领域 内 , 查 全 率 和 查 准 率 ' 是 反映 检 
索 效 果 的 重要 指标 ,因此 可 采用 查 全 率 与 查 准 率 两 个 
指标 判断 特征 词 提取 的 效果 。 查 准 率 是 衡量 检索 信息 
噪声 比 的 指标 , 即 检 出 的 相关 文献 量 与 检 出 的 文献 总 
量 的 百分比 。 查 全 率 是 衡量 从 文献 集合 中 检 出 相关 文 
献 成 功 度 的 指标 , 即 检 出 的 相关 文献 量 与 相关 文献 总 
量 的 百分比 。 在 突破 性 研究 特征 词 检索 效果 评价 中 ， 
查 全 率 =TP/(TP +FP) , 查 准 率 =TP/(TP +FN) ,字母 
表达 的 含义 如 表 1 Br: 
表 1 查 准 率 与 查 全 率 指标 中 字母 含义 说 明 


分 类 突破 性 研究 的 文献 对 照 组 文献 
检 出 的 文献 TP( 真 正 例 ) FN( 假 正 例 ) 
未 检 出 的 文献 FP( 假 反例 ) TN( 真 反例 ) 


正 例 与 反例 选择 突破 性 研究 文献 和 不 具有 突破 创 
新 的 文献 , 数据 分 别 来 源 于 Faculty of 1000 (简称 


F1000) 数据 库 中 被 评议 为 New-Finding 和 Negative/ 
Null Result 的 论文 。 其 中 被 评议 为 New-Finding 的 文 
章 中 作者 展示 了 新 颖 的 数据 、 模 型 等 ,可 认为 是 突破 性 
的 研究 发 现 ,被 评议 为 Negative/Null Result 的 论文 中 
作者 得 到 阴性 结果 ,或 未 展示 有 价值 的 结果 ,可 以 认为 
是 不 具有 突破 创新 、 价 值 较 低 的 文献 。 


3 ”突破 性 研究 的 特征 词 提 取 


3.1 突破 性 研究 数据 获取 及 预 处 理 

考虑 数据 的 可 获取 性 ,本 文 纳入 1981 - 2018 年 生 
物 医学 领域 Nobel prize 获得 者 的 Key Publications , 及 
1996 -2018 年 的 Breakthrough of the Year 论文 。 在 Sci- 
ence 及 Nobel 官网 检索 得 到 Breakthrough of the Year 的 
论文 556 篇 论文 ,Nobel prize 获得 者 的 Key Publications 
相关 文献 103 篇 ,二 者 去 重 得 到 648 篇 突破 性 研究 文 
献 。 突 破 性 研究 摘要 语 料 通过 PubMed 数据 库 进行 检 
索 得 到 467 条 语 料 。 突 破 性 研究 的 引文 语 料 通过 Colil 
平台 检索 得 到 135 526 条 语 料 ,清洗 后 剩余 131 767 条 
引文 语 料 。 
3.2 ”特征 词 元 筛选 与 提取 

对 突破 性 研究 的 摘要 和 引文 语 料 进行 词 频 统计 ， 
在 摘要 语 料 中 提取 7 058 个 词 ,累计 词 频 为 54 394; 引 
昌 语 料 中 得 到 70 995 个 词 ,累计 词 频 为 3 184 578 。 两 
组 语 料 中 , 均 以 NN( 名 词 ) 可 ( 形 容 词 ) 和 VB( 动 词 ) 
这 三 类 词性 为 主 ,但 是 在 占 比 上 存在 一 定 差异 。 一 般 
而 言 , 自然 语言 处 理 的 结果 随 着 语 料 的 增加 而 逐渐 稳 
定 , 因 而 引文 语 料 的 词性 占 比 更 具 稳 定性 。 具 体 的 词 
性 占 比 情况 见 图 4, 内 环 为 突破 性 研究 摘要 语 料 , 外 环 
为 突破 性 研究 的 引文 语 料 。 


Tm 


xxl 96 
AAN 

RD 0.5% 
v M 


WU 3894 
wi 
SUN 
30.9% 
50.77% 
32.01% 
63.2% 
NN JJ ^ VB RB FW 


图 4 摘要 和 引文 语 料 的 词性 占 比 


摘要 语 料 和 引文 语 料 特征 词 选取 中 ,选择 词 频 排 
序 Top500 fis] i ETT fi , JUR Mesh 词 表 中 的 医学 
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领域 专业 词汇 ,以 及 与 突破 性 评价 无 关 的 词汇 ,得 到 部 
分 词汇 作为 候选 特征 词 。 特 征 词 元 的 进一步 筛选 , 需 
要 专家 对 摘要 和 引文 文本 进行 研读 ,根据 语 料 中 相关 
学 者 的 表述 方式 导 选 。 例 如 ,在 引文 语 料 中 经 常 出 现 
下 述 表 现形 式 , 以 discover, since 等 词汇 突出 表现 被 引 
论文 作者 的 重大 发 现 : 

RNA interference ( RNAi) was first discovered in C. 


elegans and has since been widely used to 
Following the initial discovery of RNAi, a variety of 


small RNA-mediated silencing phenomena have been uncov- 


ered. 

在 洲 选 过 程 中 ,三 位 图 书 情报 领域 的 专家 以 “ 背 对 
背 ” 的 方式 查看 摘要 和 引文 中 包含 候选 特征 词 的 语 料 。 
通过 专家 六 选 ,两 名 及 以 上 的 专家 认为 词 元 能 表征 突 
破 性 , 则 确认 为 特征 词 元 。 最 终 得 到 摘要 语 料 的 8 个 
特征 词 元 : new、 novel , potential , key , change , evidence , 
basis , base, 以 及 引文 语 料 的 8 个 特征 词 元 :change、 
first „potential , new , novel , since , discovery , discover , 表 2 
展示 了 摘要 和 引文 语 料 的 特征 词 及 其 提取 词 元 前 对 应 
的 词 : 


R2 摘要 和 引文 语 料 的 特征 词汇 


摘要 语 料 的 特征 词 元 引文 语 料 的 特征 词 元 

词 元 提取 词 元 前 的 词 词 元 提取 词 元 前 的 词 

new new change Changes | Changing |change |changed |changes |changing 
> novel Novell novel first First. | first 
QP potential Potentiall potentiall potentials potential Potential | potential | potentials | potentialities | potentiality | potentialize 
v key Key| key new New | new 

change Changes |change lchanged | changes novel Novel |novel 
《vidence Evidencel evidencel evidenced since Since |since 

m basis bases| basis discovery Discoveries |discovery 
Based |base |based discover Discovered |discover | discovered |discovering | discovers 


[em] base 


30 词义 拓展 分 析 及 可 视 化 
SS 通过 将 摘要 和 引文 语 料 获取 的 特征 词 元 输入 到 
Woérd2vec 模型 (摘要 词 元 的 词义 拓展 参数 设置 为 


» 


“new , novel , potential , key , change , evidence , basis , base 

了 m50, 引 文 词 元 的 词义 拓展 参数 设置 为 “change , first , 
potential , new , novel , since , discovery, discover" -mn 50) 
RETR 了 在 Word2vec 模型 中 与 特征 词 key discovery 
ac HH f a 10 个 单词 ,这 些 词 被 认为 是 扩展 的 候选 
词 。 


表 3 特征 词 拓展 候选 词 示例 


特征 词 :key 特征 词 ;discovery 


拓展 词 矢量 距离 拓展 词 矢量 距离 
findslot 0.623 147 discoveries 0. 485 044 
keys 0.531 986 discovered 0. 484 780 
signature 0. 478 537 discoverer 0.399 614 
major 0. 399 389 creation 0.387 769 
pivotal 0. 385 623 institute 0. 382 202 
unique 0.376 219 rediscovery 0. 381 493 
specific 0. 359 634 findings 0. 358 403 
primary 0. 349 635 latest 0. 357 655 
particular 0. 347 595 foundation 0.343 410 
signatures 0. 338 006 contributions 0. 325 022 


通过 专家 评议 并 结合 词语 应 用 场景 进一步 筛选 得 
到 摘要 拓展 特征 词 30 个 ,引文 拓展 特征 词 36 个 。 在 


摘要 语 料 中 ,摘要 拓展 特征 词 的 共 现 关系 见 图 5$ ,由 于 
拓展 特征 词 changes changing credible 在 摘要 语 料 中 不 
存在 ,所 以 共 现 图 中 有 27 个 节点 。 图 5 中 节点 大 小 代 
表 语 料 中 出 现 频次 , 线 的 粗细 代表 节点 的 共 现 强度 。 
从 图 中 可 知 ,based , changes , findings 等 19 个 词 的 出 现 
频率 较 高 , 且 词 汇 之 间 的 共 现 次 数 较 多 ,尤其 是 new 的 
出 现 频次 最 多 , H+ evidence 的 共 现 次 数 较 多 。 进 一 
步 说 明 拓展 特征 词 的 有 效 性 , 且 在 摘要 语 料 中 多 个 特 
征 词 经 常 共同 出 现 。 
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在 引文 语 料 中 ,引文 拓展 特征 词 的 共 现 关系 见 
图 6, 由 于 拓展 特征 词 devote 在 引文 语 料 中 不 存在 ， 
所 以 共 现 图 中 有 35 个 节点 。 从 图 6 中 可 知 ,大 多 
数 特征 词 的 出 现 频率 都 较 高 , 词 共 现 网 络 更 紧密 ， 
first 和 since 出 现 频率 均 较 高 ,而且 二 者 之 间 展 示 了 
极 强 的 共 现 关系 ,在 引用 语 料 中 多 次 出 现 since… 
first… 的 句 型 。 此 外 since 与 discovery ,first 与 discov- 
ered 的 共 现 次 数 也 较 多 ,说 明 在 引用 语 料 中 普遍 多 
个 特征 词 共 同 出 现 。 
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图 6 引文 语 料 中 引文 拓展 特征 词 的 共 现 关系 


V: 


32K 突破 性 研究 特征 词 的 提取 效果 分 析 

四 特征 词 提取 效果 采用 碍 全 率 与 在 准 率 进 行 评估 ， 
MORI) rb ie F1000 数据 库 中 5 次 以 上 被 评议 为 
NawsFinding 的 183 条 摘要 语 料 和 1895 条 引文 语 料 作 
为 正 例 ,所 有 仅 被 评议 为 Negative/Null Result 的 125 
条 摘要 语 料 和 1840 条 引文 语 料 作为 反例 。 通 过 特征 
词 反 向 检索 两 组 文献 语 料 ,计算 摘要 特征 词 - 摘要 折 
展 特 征 词 .引文 特征 词 - 引文 拓展 特征 词 摘要 和 引文 
特征 词 -摘要 和 引文 拓展 特征 词 在 突破 性 研究 检索 过 
程 中 的 查 全 率 和 查 准 率 ,具体 情况 见 图 7。 从 图 7 中 可 
知 摘要 和 引文 的 拓展 特征 词 的 查 全 率 最 高 , 达到 
94. 5496 ,引文 特征 词 查 准 率 最 高 ,达到 70.77% , 查 准 
率 和 查 全 率 综合 效果 较 好 的 是 引文 的 拓展 特征 词 。 在 
突破 性 研究 检索 识别 过 程 中 可 根据 查 全 和 查 准 的 需求 
选择 不 同 的 特征 词 。 


4 结论 与 展望 


— 9| i 
50% 55% 60% 65% 

查 准 率 
引文 是 引 文 拓展 O 〇 摘要 和 引文 。@ 摘 要 和 引文 拓展 


70% 75% 80% 


图 7 不 同类 别 特征 词 的 查 全 率 与 查 准 率 


得 者 的 “Key Publications" 作为 突破 性 研究 语 料 数 据 ， 
整合 论文 的 摘要 和 引文 语 料 , 利 用 基于 统计 和 基于 语 
义 的 特征 提取 方法 进行 特征 词 提 取 。 在 研究 中 发 现 ， 
不 管 是 摘要 语 料 还 是 引文 语 料 ,科技 论文 的 语 料 词性 
整体 上 的 构成 相差 无 几 。 利 用 Stanford CoreNIp 工具 对 
摘要 和 引文 语 料 进 行 分 词 及 词 频 统计 ,得 到 8 个 摘要 
语 料 的 特征 词 元 :new、novel , potential , key , change , evi- 
dence ,basis , base, 8 个 引文 语 料 的 特征 词 元 :change、 
first , potential , new , novel since discovery, discover, i| 
H Word2 vec 的 方法 进行 特征 词 的 语义 拓展 ,最 终 得 到 
30 个 摘要 语 料 的 拓展 特征 词 ,36 个 引文 语 料 的 拓展 特 
征 词 。 通过 共 现 分 析 , 无 论 是 在 论文 摘要 还 是 引文 文 
本 中 ,特征 词 普遍 共同 出 现 ,尤其 是 在 引文 语 料 中 高 频 
出 现 since…first… 的 句 型 。 

在 特征 词 提取 效果 评价 中 ,选择 在 New-Finding 和 
Negative/Null Result 的 论文 语 料 进行 特征 词 的 反 向 检 
索 ,检索 结果 显示 摘要 和 引文 的 拓展 特征 词 的 查 全 率 
最 高 ,但 引文 特征 词 的 查 准 率 最 高 ,达到 70.77% , 查 准 
率 和 查 全 率 综合 效果 较 好 的 是 引文 的 拓展 特征 词 。 相 
关 学 者 在 利用 特征 词 检索 突破 性 研究 文献 的 过 程 中 ， 
可 根据 查 全 率 和 查 准 率 的 不 同 需求 选择 不 同 的 特征 
13] ,特征 词 表 见 表 4。 

本 文 利 用 突破 性 语 料 提取 特征 词 ,通过 特征 词 识 
别 突破 性 研究 文献 的 查 全 率 能 够 达到 90% 以 上 ,但 仅 
仅 依 靠 特 征 词 识别 突破 性 研究 的 识别 准确 率 还 远 远 不 
够 。 识 别 出 的 特征 词 作为 识别 突破 性 研究 的 第 一 步 ， 
为 突破 性 研究 的 识别 初步 划 出 研究 的 文献 范围 ,后 续 
的 突破 性 研究 识别 中 可 以 利用 机 器 学 习 方法 结合 引文 
与 摘要 的 整体 语义 信息 ,深入 挖 气 突破 性 研究 语义 特 


Cm 


本 文 以 生物 医学 领域 为 例 , 选 取 Science 评选 为 
" Breakthrough of the Year ”的 关键 文献 和 Nobel Prize 获 


征 ,能 够 在 候选 突破 性 研究 文献 中 准确 识别 突破 性 研 
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X4 不 同类 型 的 特征 词 词 表 


特征 词类 型 ”检索 范围 检索 式 检索 特点 
引文 特征 词 引文 @ Citation( changes OR changing OR change OR changed OR first OR new OR potential OR potentials OR potentiali- 查 准 率 最 高 
ties OR potentiality OR potentialize OR since OR novel OR discoveries OR discovery OR discovered OR discover OR 
discovering OR discovers) 
引文 拓展 引文 @ Citation ( affect OR beginning OR change OR changed OR changes OR changing OR contributions OR devote OR. 查 全 率 和 查 准 率 
特征 词 discover OR discovered OR discoverer OR discoveries OR discovering OR discovers OR discovery OR earliest OR 综合 效果 较 好 
early OR findings OR first OR foundation OR impacts OR institute OR latest OR new OR novel OR only OR original 
OR originally OR potential OR potentialities OR potentiality OR potentialize OR potentials OR predict OR rediscovery 
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Abstract: | Purpose/significance | Based on the author’ s descriptive evaluation of his research and the critical 
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Cations of later researchers , the abstract and citation corpus of the breakthrough research are used to extract the fea- 
A words. Feature words can be used to understand the abstract and citation corpus features of the breakthrough re- 
Glgrch and contribute to the identification of breakthrough research. | Method/ process | Key documents selected by 
CSoience as “Breakthrough of the Year" and “key publications" of Nobel Prize winners were selected as breakthrough 
research corpus data. Feature words were extracted by integrating abstracts and citation corpus of the paper. In the 
Geüture word extraction, the Stanford CoreNlp tool was used to perform word frequency statistics on the corpus, and 
ilie feature words were filtered in combination with expert opinions. Then we used the semantic relationship of medi- 
"= 
2edl texts to semantically expand feature words, which were used as the seed words. Finally, the retrieval and recogni- 
effects of the abstract and citation feature words were further compared by the recall rate and the precision rate. 
»s-Result/conclusion | In the breakthrough research corpus, we selected 8 feature tokens of abstract corpora and 8 
ture tokens of citation corpora. In the retrieval and recognition of feature words, the recall rate of the extended fea- 
ture words of abstracts and citations is the highest, the precision of citation feature words is the highest. The compre- 
hensive effect of the recall rate and precision of citation expansion feature words are better. 


Keywords: breakthrough research feature words abstract text citing sentence 


杨 雪 梅 :突破 性 研究 特征 词 识 别 方法 优化 及 实现 、 论 文 


132 


